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Модели оценивания семантической 
схожести естественно-языковых 
текстов с использованием 
онтологической базы знаний У\ога\Ме 


В данной статье описывается разработанная модель оценивания семантической схожести естественно- 
языковых текстов, которая использует в качестве базы знаний онтологию У/ог4Ме(. Основной чертой 
данной модели является использование кластерного анализа, а также возможность одновременно обрабатывать 
несколько текстов. Проводится сравнительный анализ с другими схожими моделями. 


Введение 


Проблема вычисления оценки схожести текстов, или отнесения текстов к той 
или иной теме, является очень актуальной в современном мире, в силу увеличения элек- 
тронного документооборота. Также данная проблема появляется при исследовании ког- 
нитивных структур лингвистического мышления. 

На данный момент наиболее распространенными являются модели, основанные 
на сравнении словарного наполнения тестов, без подключения семантики в виде онто- 
логических словарей и баз знаний. В данной работе как раз приводится разработанная 
модель оценивания схожести текстов, которая реализуется на онтологиях. Проблема 
словарных методов в том, что они не учитывают такие языковые феномены, как омони- 
мия, синонимия и полисемия, когда онтологии могут помочь вовлечь эти явления в 
алгоритмический анализ языка. 

Для семантических методов сравнения текстов, естественно, нужны методы семан- 
тического сравнения слов для определения семантической дистанции между ними. По- 
этому данная статья сначала дает краткое описание той онтологии, на которую ориенти- 
руются описанные методы — это принстонский У/огАМеф а затем, во втором разделе 
статьи, приводятся описания некоторых методов определения семантической схожести 
слов. В последнем, третьем разделе, описаны единственная известная в литературе модель 
семантического сравнения текстов, а также разработанная авторами модель и небольшой 
теоретический сравнительный анализ. 

Целью данной работы является разработка метода семантического сравнения 
текстов, основанного на анализе результата кластеризации семантического профиля текс- 
та, а также теоретическое сравнение данного метода с представленными в литературе. 


74 «Искусственный интеллект» 42011 


Модели оценивания семантической схожести естественно-языковых текстов... ЗА 


1 Онтологическая база знаний УМогдМе 


Дж. Миллером и его коллегами из Лаборатории когнитологии Принстонского Уни- 
верситета (США) была разработана модель ментального лексикона человека. Ресурс, 
который стал первой реализованной глобальной онтологической сетью, получил наз- 
вание У/огаМе+{ [1] и со временем стал одним из наиболее авторитетных и распро- 
страненных стандартов, используемых для построения лексико-семантических баз. 

Популярность и широкое распространение У/огАМе{ обусловлены прежде всего 
его существенными содержательными и структурными характеристиками. Принстонс- 
кий У/огАМе! и все последующие варианты для других языков направлены на отображе- 
ние состава и структуры лексической системы языка в целом, а не отдельных тематичес- 
ких областей. Нынешняя версия \У/огАМе{ охватывает общеупотребительную лексику 
современного английского языка — более 120 000 слов. 

Базовой структурной единицей Принстонского \УогаМе{ является синонимический 
ряд (синсет), объединяющей слова с подобным значением. Каждый синсет представ- 
ляет в словаре некоторое лексикализированное понятие данного языка. Для удобства 
использования словаря человеком каждый синсет дополнен дефиницией (2105$) и при- 
мерами употребления слов в контексте. Синсеты в \!ог@М№ 1 связаны между собой такими 
семантическими отношениями, как гипонимия (родовидовое), меронимия (часть-целое), 
лексический вывод (каузация, пресуппозиция) и др.; среди них особую роль играет 
гипонимия: она позволяет организовывать синсеты в иерархические структуры (дерева, 
таксономии). Лексика каждой части речи представлена в виде набора деревьев (леса). 
Для разных частей речи родовидовые отношения могут иметь дополнительные харак- 
теристики и различаться областью распространения. 

Путем между двумя синсетамы на \\!ог4Ме( назовем последовательность синсетов, 
в которой каждая последовательная пара синсетов связана определенным отношением. 


2 Семантическая схожесть слов 


Для получения оценки семантической схожести (или дистанции) слов было пред- 
ложено много методов [2]. Те из них, которые используют онтологии, можно поделить 
на три группы: основанные на путях, основанные на описаниях и основанные на инфор- 
мационном контенте. Первые, в основном, ищут кратчайший путь в таксономии онтоло- 
гии, а затем определенным образом преобразовывают полученный результат. Вторые 
основываются на идее, что два слова тем более похожи, чем больше у них общих 
слов в их словарном описании. Третьи же пытаются исправить естественный изъян 
таксономий — различное семантическое расстояние между понятиями, между которыми 
одно таксономическое звено. Например, в \!ог4Ме{ между понятиями ЕОВК и ЗАГАР 
ЕОКК и между ЕАЧМА и СНОКЛОАТЕ одинаковое таксономическое расстояние — 
одна связь типа [$-А (быть чем-либо, конкретизация, основная таксономическая связь), 
но интуитивно понятия из первой пары гораздо ближе друг к другу, чем со второй. 
Решение данной проблемы достигается благодаря введению понятия информацион- 
ного контента, которое является статистической мерой специфичности того или иного 
слова. 

Эти онтологические меры определены на множестве концептов базы знаний. Меру 
для слов можно получить по следующей формуле: 


7 МОТ гы ‚ „Сопсер5 
эту“ (и, мь)= тах (уту"“(сьс,)), (0 
Е. 55 
СЕМ, .театт8у 
где Х- название меры, и.теаття5 — это множество смыслов-концептов этого слова. 


Далее приведены несколько примеров из первой и второй группы. 
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РАТН 

Простейшей, основанной на путях мерой, является мера, которую будем обозначать 
РАТН. Согласно этому подходу, мерой семантической схожести между двумя концеп- 
тами является обратное значение длины кратчайшего пути в таксономии между этими 
концептами. 


5ЙТратн (Сь6>) = =) (2) 
ЕСН 
Следующая мера описание которой приводится здесь, была предложена в [3]. 
Эту, основанную на путях меру семантического сходства, будем обозначать как [СН. 
При этом подходе, мера сходства двух концептов определяется как отношение 
кратчайшего пути в 1$-А иерархии к диаметру таксономии. Для \!огАМе 2.1 диаметр 
таксономии существительных равняется 17. Следующая формула описывает меру: 


Ут Си (с ‚с. О 102 ЕЕ (3) 

бротеШепяйЙ (ст, с2) — длина кратчайшего пути (с наименьшим количеством 
узлов) между концептами с/ и со, а О — это диаметр таксономии (расстояние от самого 
общего к самому конкретному). 

ВЕЗ 

Данная мера относится к третьей группе. Она была предложена в [4]. Для начала 
сформулируем понятие информационного контента, которое будем обозначать [С. 
Как уже говорилось выше, 1С — это мера информационной специфичности концепта- 
синсета: чем специфичнее концепт для данного текста, тем больше его 1С-значение. 
Таким образом, с помощью информации об употребляемости концепта, делается попытка 
нивелировать различие в таксономических переходах. Формально это определяется 
следующим образом. Расширим таксономию следующей функцией р:С — [0,1], такой, 


что УсеЕС р(с) - вероятность встретить частичный случай концепта с в тексте. Следо- 
вательно, р(с) монотонно возрастающая при движении по иерархии таксономии вверх: 
если с, 15-—Ас,, то р(с,)< р(с,) ‚ и р(тоой = 1, где гоо! — корень таксономии, самый 


общий узел. 
Теперь информационный контент можно определить следующим образом: 
1С(с) =—10$ р(с). (4) 
И мера семантической похожести концептов, основанная на 1С, которую будем 
обозначать КЕ$, определяется в [4] так: 


токз (сь с.) =1С(ЁС5(с,с,)), (5) 


где [.СЗ(с,,с2) — это ближайший общий родовой узел концептов с/,с2. 


3 Семантическая схожесть текстов 


Так как методы решения проблемы сравнения тематики и семантики текстов раз- 
виваются уже относительно давно, то было предложено множество подходов: Зиррой 
Уесюг МасЬтез, Гайеп{ Зетапйс Апа|у$1$, Гаёепё ОпсШе{ АПосаНноп [5], [6] и много 
других. Но все эти методы используют только слова, не подключая онтологические базы 
знаний, таким образом не учитывая такие языковые феномены, как омонимия, сино- 
нимия и полисемия. Отметим, что как в чисто «словесных», так и в «семантических» 
методах для представления текстов в основном используется модель «мешок со слова- 
ми». То есть остаются только значимые слова (существительные), и не учитывается по- 
рядок слов, но учитывается их количество и распределение по документам. Таким 
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образом, синтаксическая информация отбрасывается, но статистическая и семантическая 
(в случае методов, которые используют онтологии) остается. «Словесные» методы часто 
представляют текст в виде вектора, где каждый элемент вектора представляет слово в 
этом документе. Самой распространенной схемой можно назвать ТЕ-ШЕ (Тегт 
Егедиепсу — шуей Поситеп{ Егедиепсу): 


И.. 
й;, = се, (6) 
1 Хоть 

т [р 7 

ве] , (7) 


г, = И, ху, (8) 


где Г — индекс терма (слова), / — индекс документа в коллекции, 1/,; — частота 
терма 1 в документе /, {4} — количество документов, в которые входит терм 1, Да/; — 
вес терма 1 в документе 7. 

После такого представления легко применять многие математические методы, 
например, кластеризацию с помощью ЗУМ в задаче разделения документов по темам. 
В этом случае ЗУМ пытается строить разделяющую плоскость между двумя множест- 
вами точек. 

Методы оценивания семантической схожести, рассмотренные в этой статье, опре- 
делены на онтологиях, которые изначально представляют граф. Строго говоря, графопо- 
добная структура онтологии не является необходимой, достаточно, чтобы на базе знаний, 
которая используется, была определена мера схожести (а точнее, семантическое рас- 
стояние) между концептами. Далее будем предполагать, что используется мера РАТН (2). 

Семантическим профилем текста будем называть взвешенный подграф онтоло- 
гии, который является проекцией слов текста на граф онтологии: каждому слову ставятся 
в соответствие его вершины-синсеты из онтологии. Вес слов подграфа в каждой модели 
рассчитывается по ТЕШЕ (8), а вес вершин — по-разному. 


3.1. Метод потока через сеть 


Метод потока через сеть, или МЕМ (МебхогК Но\/ тефод), был описан в [5]. Идея 
этого метода состоит в том, чтобы найти значение минимального потока между двумя 
семантическими профилями (каждый представляет определенный текст). «Цена» этого 
потока и будет значением схожести текстов. 

Более формально. Пусть С =|(М№, Е) — некоторый граф (онтология). М - вершины 


(концепты), Ё — ребра (отношения между концептами). Каждое ребро имеет вес 
с: Е -> В ‚ который равен онтологической дистанции между концептами (раздел 2). 
Схема расстановки весов в этой модели следующая. Каждая вершина {е № имеет 
вес Ь(г): М > В, который определяет, является вершина источником (Ь(1) > 0), или 


стоком (Ь(Р) <0), или указывает, что вершина не задействована (Ь(7) = 0). Следователь- 


но, задача состоит в том, чтобы найти минимальный поток от источников к стокам. 
Один текст обозначим источником (устанавливаем положительные веса для вершин 
семантического профиля), а второй — стоком (устанавливаем отрицательные веса). 
Для общих концептов считается сумма соответствующих весов. То есть возможна 
ситуация, когда вес одной вершины уравновесится и станет равным 0, то есть понятие, 
которому соответствует вершина, одинаково представлено в обоих текстах, а значит, 
и не выражает их особенностей. При этом веса вершин нормируются таким образом, 
чтобы общий исток был равен общему стоку. 


«Штучний 1нтелект» 42011 77 


Анисимов А.В., Лиман К.С., Лупийчук Р.И., Марченко А.А. 


Далее нужно решить задачу поиска наименьшего потока. Пусть /М№; будет мно- 
жеством ребер (й,1), через которые поток входит в вершину 1; аналогично ОПТ; будет 
множеством ребер (1,/), через которые поток выходит из 1. Тогда поток, проходящий 
через вершину 2, описывается функцией х: Е > К. Допустимым решением будет 
поток х, такой, что разница входного (`` х(п,!)) и выходного (У` . р) 


потоков будет равна предложению или потреблению вершины (Ь(1). Формально 
проблема поиска наименьшего потока может быть выражена следующим образом: 


(В.Р Е М, 


У сл ==4) > тт 9 
(1,.1)ЕЁЕ 
(0) следующими ограничениями: 
х,)- У хр =ЬО, ММ, (10) 
(Е, ЛЕОИТ, (В,РЕ/М; 
х(р, /)>0, У@, ЕЕ. (11) 


3.2 Модель, основанная на кластеризации 


Разработанная модель (далее МОК) определения семантической похожести 
текстов основана на том факте, что если текст посвящен какой-то определенной теме 
(или имеет четко выраженные темы), то лексика этого текста, а следовательно, и се- 
мантический профиль, будут элементы с сильно выделяющимся весом. Мало того, 
используя возможность измерить семантическое расстояние на онтологии, можно 
выделить группы синсетов, которые будут плотно сгруппированы. Эти группы (если 
мы спроектируем синсеты на гиперплоскость, с сохранением расстояний, то можно 
говорить об областях) близких синсетов указывают на скопление синонимов или поня- 
тий относящихся к одной теме. 

Теперь рассмотрим ситуацию с двумя текстами Т! и Т> и соответственно с 
двумя семантическими профилями ЗР! ЗР›. В этом случае схема взвешивания вершин- 
синсетов будет следующая. Сначала веса слов в текстах нормализируются по размеру 
текстов. Вес синсетов вычисляется как сумма соответствующих ему слов из обоих 
текстов, но при этом запоминается вклад каждого текста. 

5Р = {511>5125--> 5, } 5Р, = {521›522›.-б0и,} о (12) 


где 5; — следующая структура 


5; = У. "(р |Сотитийоп = {1 (0,Т,(1)} ), (13) 
ТТ 
Теперь, после кластеризации множества синстетов на плотные и тяжелые об- 
ласти, которые олицетворяют темы, можно проанализировать вклад каждого текста 
в данную тему или наоборот — вычислить присутствие данной темы в том или ином 
тексте. Тему в данном случае удобно представить как нечеткое множество: 


ТА; = {(5т,(1))|5, =] 5Р,} › (14) 
К 


где т, (7) — это функция принадлежности 1-го синсета к /-Й теме. 


3.3 Анализ и тестирование 


Представленная в этой статье модель определения семантической схожести текстов 
теоретически может быть применима сразу к нескольким текстам, в отличие от 
многих других моделей. Естественно, при слишком большом количестве текстов или 
при попытке анализа очень больших, всеохватывающих текстов, метод, скорее всего, 
покажет плохие результаты, как, впрочем, и остальные модели в схожей ситуации. 
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Более точный анализ плюсов и минусов данной модели требует дополнитель- 
ного исследования, так как результаты МОК сильно зависят от использованного алго- 
ритма кластеризации. То есть необходим определенный подход, который будет учиты- 
вать именно семантико-лингвистическую силу той или иной модели, с целью выявить 
ту модель, которая будет более других соответствовать когнитивным структурам. Другой 
путь сравнения вышеописанных и прочих методов оценивания схожести текстов — это 
проверка в различных прикладных и тестовых задачах, как например, была протестиро- 
вана модель МЕМ в [5], где показала существенное улучшение показателей в некоторых 
задачах, что вселяет надежду на семантический подход к оценке схожести текстов. Но при 
этом также важно вычленить вклад собственно модели схожести текстов и решателя 
конкретной задачи. На данный момент это является темой последующих исследований. 


Выводы 


В данной статье была представлена модель определения семантической схожести 
естественно-языковых текстов, основанная на кластеризации. Данная модель имеет 
определенные преимущества относительно других моделей, но более точное сравнение 
требует более глубокой разработки теоретической базы. 
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А.В. Ашамов, К.С. Лиман, О.О. Марченко Р.1. Лутйук 

Модел! ощшнювання схожост! природно-мовних текств з використанням онтолог1чно! бази 
знань УУогаМе 

В дан статт! описуеться розроблена модель ощнювання семантично! схожост! природно-мовних текст, 
яка використовуе в якост! бази знань онтоломю \!ог Ме. Основною рисою дано! модел! е використання 
кластерного аналззу, а також можливисть одночасно обробляти деюлька текств. Наводиться пор1вняльний 
анализ з 1ншими моделями такого ж гатунку. 


А.Г. Ашятоу, К.5. Гутап, А.А. Магсйенко, В.1. Гирусйи 

Езитайоп Модею оЁ Зетапйс ЭппЙагНу оЁ Мабига! Гапоцасе Тех уп Озшо Опююзса! Кпоедое 

Вазе У/огаМе 

ТБе деуеюре то4е| оЁ4ех( зетапис зииПагйу езитайоп фай 15ез \МогаМе{ опю]оэу аз Кое Базе 15 
Чезспбе4 т 15 агасе. Тре тат Реабаге оЁ {15 тоде| 1$ шуоуше оЁ е сачег апа1у515 апа тиехе 
ргосеззште абшу. ТЬе сотрагайуе апа[у$15 оЁ 1$ шоде! ю офег зиаЙаг ппо4е[5 15 реогтеа. 


Статья поступила в редакцию 30.06.2011. 
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